Application of Mel Cepstral Representation of Voice Recordings for Diagnosing Vocal Disorders
نویسندگان
چکیده
The aim of this study was to assess the applicability of Mel Frequency Cepstral Coefficients (MFCC) of voice samples in diagnosing vocal nodules and polyps. Patients’ voice samples were analysed acoustically with the measurement of MFCC and values of the first three formants. Classification of mel coefficients was performed by applying the Sammon Mapping and Support Vector Machines. For the tests conducted on 95 patients, voice disorders were detected with accuracy reaching approx. 80%. Abstract. Celem niniejszej pracy była ocena możliwości zastosowania analizy tzw. współczynników cepstralnych (ang. Mel Cepstral Coefficients (MFCC)) dla próbek rejestrowanego głosu pacjentów we wspomaganiu diagnozy guzów i polipów. Rejestracje mowy pacjentów poddane zostały analizie akustycznej, w której zastosowano parametry MFCC oraz wartości trzech pierwszych formantów. Do klasyfikacji współczynników cepstralnych zastosowano odwzorowanie Sammona oraz tzw. Maszynę Wektorów Nośnych. W testach wykonanych dla 95 rejestracji mowy pacjentów, zaburzenia głosu zostały wykryte z ok. 80% dokładnością. (Zastosowanie reprezentacji Mel Cepstralnej sygnału mowy do badania zaburzeń głosu). Celem niniejszej pracy była ocena możliwości zastosowania analizy tzw. współczynników cepstralnych (ang. Mel Cepstral Coefficients (MFCC)) dla próbek rejestrowanego głosu pacjentów we wspomaganiu diagnozy guzów i polipów. Rejestracje mowy pacjentów poddane zostały analizie akustycznej, w której zastosowano parametry MFCC oraz wartości trzech pierwszych formantów. Do klasyfikacji współczynników cepstralnych zastosowano odwzorowanie Sammona oraz tzw. Maszynę Wektorów Nośnych. W testach wykonanych dla 95 rejestracji mowy pacjentów, zaburzenia głosu zostały wykryte z ok. 80% dokładnością. (Zastosowanie reprezentacji Mel Cepstralnej sygnału mowy do badania zaburzeń głosu).
منابع مشابه
[Nonlinear acoustic analysis in the evaluation of occupational voice disorders].
BACKGROUND Over recent years numerous papers have stressed that production of voice is subjected to the nonlinear processes, which cause aperiodic vibrations of vocal folds. These vibrations cannot always be characterized by means of conventional acoustic parameters, such as measurements of frequency and amplitude perturbations. Thus, special attention has recently been paid to nonlinear acoust...
متن کاملVoice-based Age and Gender Recognition using Training Generative Sparse Model
Abstract: Gender recognition and age detection are important problems in telephone speech processing to investigate the identity of an individual using voice characteristics. In this paper a new gender and age recognition system is introduced based on generative incoherent models learned using sparse non-negative matrix factorization and atom correction post-processing method. Similar to genera...
متن کاملThe Study of Vocal Function in Patients With Early Laryngeal Carcinoma After Transoral Laser Microsurgery
Objective Today transoral laser microsurgery is considered as one of the first options to control early laryngeal cancer, and voice disorder is one of the inevitable complications of this therapeutic component. This study aimed to compare the vocal function in patients with early-stage laryngeal cancer following laser surgery with healthy individuals with normal voice quality using acoustic ana...
متن کاملLong term measures of the resonating vocal tract: establishing correlation and complementarity
Underlying much of the research in forensic voice comparison (FVC) is the assumption that the vocal tract is a useful biometric for speaker discrimination and that individual differences in its anatomy and physiology will be reflected as speech resonances that are recoverable from its output. There are many ways in which the output of the tract may be observed and analysed, different methods de...
متن کاملPerformance Comparison of Neural Networks and GMM for Vocal/Nonvocal segmentation for Singer Identification
Vocal and nonvocal segmentation is an important task in singing voice signal processing. Before identifying the singer it is necessary to locate the singer’s voice in a song. Maximum of the songs start with a piece of instrumental accompaniment known as ‘prelude’ in musical terms after which the singing voice comes into play. Therefore, it is necessary to detect the vocal region in the song in ...
متن کامل